Seminario de Análisis Documental impartido por la Dra. Georgina Torres.
Trabajo de investigación, colaborativo y de práctica
Después de una búsqueda sobre la información que contiene el tema que nos ocupa, podemos ver que los autores confunden ambos términos, a veces los enfrentan y en otros casos lo complementan.
Mediante este trabajo en grupo, tendremos la oportunidad de ir aclarando, al respecto, te invitamos a leer este espacio y los recursos que pusimos a tu alcance, para que en la exposición presencial, lo podamos discutir y lleguemos a una consenso.
Ayudanos con tu participación dando forma y contenido a este wiki "Recordemos que es un trabajo colaborativo, se trata de analizar el contenido y los recursos que ponemos a tu alcance como son los archivos y ligas, te solicitamos leer lo que creas conveniente, de acuerdo a tu propio interés y tiempo para la lectura, cualquier aportación tuya reforzará el contenido de este espacio"
Gracias por participar!!_
Indización y Tesauros
1 Introducción
El proceso técnico documental es el conjunto de operaciones dirigidas a la selección, la adquisición, el registro y el tratamiento de los documentos con el fin de posibilitar su almacenamiento y recuperación, y su posterior difusión. En general la entrada de los documentos en un centro se efectúa por medio de dos etapas sucesivas: la selección y adquisición. La selección, como su nombre lo indica, es elegir la documentación que debe incorporarse y la adquisición va a depender de las políticas de la institución en relación al presupesto, los recursos y los servicios prestados. Por tanto, la selección y adquisición es la primera etapa que encamina la constitución de los fondos documentales.
Otra fase en el proceso técnico documental es el tratamiento técnico que reciben los documentos para que puedan ser utilizados. Este tratamiento se divide en análisis de forma y análisis de contenido. El análisis de forma de un documento también se conoce como descripción bibliográfica o catalogación, mientras que el análisis de contenido abarca la clasificación, el resumen y la indización.Esté último proceso es el que desarrollaremos a continuación especialmente la etapa de indización y sus diferentes características, tal como se muestra en el índice, posteriormente, profundizamos en el tema de Tesauros, con la finalidad de explicar su relación con la indización y así abarcar los temas del trabajo que corresponde: "INDIZACIÓN Y TESAUROS". 1.1 Definición de indización
En la literatura sobre indización es habitual encontrar diferentes definiciones, por lo cual, tomamos las definiciones más adop que en un momento podría adaptarse a un contexto práctico - experimental, y no solo teórico:
Indización. Técnica del Análisis documental que describe y representa el contenido de las fuentes de información documentales mediante un número limitado de conceptos extraídos del texto de los documentos (palabras clave) o de vocabularios controlados (clasificaciones, listas de materia,
tesauros) que van a permitir el control y la recuperación de la información de un conjunto documental dado.[1]
La indización es una técnica o forma de efectuar el análisis documental en cuanto a su nivel interno y específicamente en cuanto al análisis documental de contenido del mensaje; se realiza con la intención de identificar los contenidos documentales y así hacer posible la recuperación. Para lograr lo anterior, se efectúa la descripción de la información y su caracterización utilizando: palabras significativas, palabras claves, materias, temas, unitérminos, o descriptores representativos del contenido del documento que los contiene.[2]
. La operación más significativa del análisis documental que refiere al proceso de descripción y representación del contenido de un documento, mediante un número limitado de conceptos extraídos del texto de los documentos (palabras clave) o de vocabularios controlados (descriptores, términos o encabezamientos de materia, tesauros). Esos conceptos deben ser los que más apropiadamente caractericen al documento, a modo de facilitar su futura recuperación temática.Así pues, tomando como base las definiciones, y analisando cada una de ellas, podemos observar que tienen en común conceptos, tales como: descripción, recuperación, representación, etc, cuya característica conlleva a un objetivo, por lo cual, el objetivo de la indización es constituir un conjunto lo más completo y diversificado posible de puntos de acceso a la información[3], así como el almacenamiento de la información para atender necesidades de información. Las diferentes maneras de enfretarse a la indización de documentos por parte de los indizadores se pueden agrupar en tres corrientes presentes en la literatura: Una indización centrada en el documento, el usuario y en el dominio. 1.1.1 Indización centrada en el documento Consiste en una indización que trata sobre la descripción exacta y fiel del documento sin considerar el contexto o las necesidades de información de los usuarios a los que sirve.
1.1.2 Indización centrada en el usuario Se basa en la selección de los conceptos convirtiendolos en términos controlados por medio de un lenguaje de indización, teniendo siempre en mente el conocimiento que tienen de los usuarios y sus posibles necesidades de información.
1.1.3 Indización centrada en el dominio Jeans- Erik Mai. Ha propuesto esta modalidad cuyo fundamento está en el conocimiento profundo de la organización. El autor subdivide este tipo de indización en cuatro procesos: análisis del dominio, de las necesidades de los usuarios, de los roles jugados u adoptados por los indizadores, por último el análisis del documento teniendo siempre en cuenta los elementos anteriores.
Por tanto, las diferencias de enfoque entre la indización centrada en el documento y la centrada en el dominio consisten en que mientras la primera toma como única referencia la información contenida en el documento, la indización centrada en el dominio maneja otros elementos además del documento.
1.2 Proceso de la indización
· Consiste en extraer los conceptos representativos del contenido de un documento con la ayuda de un lenguaje documental o lenguaje controlado. · Se pueden emplear materias, palabras claves o descriptores(término normalizado o controlado que expresa el contenido significativo del documento). · No se limita sólo a detectar los vocablos presentes en el documento, sino también su traducción para pasar del lenguajenatural al lenguaje documental.· El indizador, cuando ya tiene el documento original o su expresión condensada, retiene unas cuantas nociones que representan su contenido con la máxima fidelidad.
1.2.1 Exhaustividad Todos los conceptos básicos han de estar representados en la indización 1.2.2 Corrección Evitar palabras demasiado genéricas, expresiones vagas o ambiguas o cualquier tipo de generalización. 1.2.3 Pertinencia Exigencia y rigor en la selección de los vocablos más expresivos y más significativos 1.2.4 Uniformidad Es el más difícil y el que exige una actitud más positiva por parte de quien indiza, sobre todo cuando no existen palabras similares a las escogidas. Se irá elaborando un listado de trabajo (de palabras o expresiones clave utilizadas) para mantener la coherencia en todo momento. 1.2.5 Interés del usuario Ésta será siempre la principal misión de la indización si se quiere ofrecer un servicio útil 1.2.6 Estadístico Frecuencia del uso de un término en el título o texto 1.2.7 Especificidad y presición En todo momento se buscará utilizar de forma precisa el lenguaje especializado de los ámbitos temáticos y disciplinares abordados.
1.3 Herramientas para la indización 1.3.1 Lenguaje natural versus lenguaje controlado
Hablar de lenguajes de indización es hacer referencia a conceptos como lenguaje documental, lenguaje especializado, lenguaje natural y lenguaje controlado, normalización y control del vocabulario, relaciones semanticas, etc. En este momento, consideramos oportuno revisar la dicotomía entre lenguaje natural y lenguaje controlado, debido a que la elección de uno de ellos vista a la indización conlleva seleccionar alguna de las posibles herramientas disponibles.
Lenguaje natural:
Emitido por el ser humano de forma natural, común, a diario, variado, alto en sinónimos y delineado por las distintas regiones donde habita el hombre. Nos facilita al hablar y definir el mismo concepto con distintos términos (ejem: carro, coche, auto, entre otros) lo cual por ende dificulta la indización de documentos, así como la búsqueda y recuperación de la misma. Los principales problemas del lenguaje natural son:
Normalización de singulares y plurales. Para dicho tema la indización debe
ajustarse en lo posible a la Norma UNE 50-106-90. Normas para el desarrollo de
tesauros monolingües.
Además el significado de muchos términos varía según su número EjemploDerecho;derechos/Obligación ;Obligaciones).
Ambigüedad y falta de especificidad. La utilización de unitérminos, propio del
lenguaje natural crea además ambigüedad y falsas combinaciones en la
recuperación. Según el ejemplo anterior un buen sistema controlado debería
recoge formas como : Obligación de declarar;Obligaciones del Estado.
Muchos términos están perfectamente claros y definidos en su utilización. Así, las
notas de alcance de un tesauro nos permiten aclarar aquellos conceptos que ayuden
a su uso en el contexto exacto.Ejemplo:Restauración N.A. Reinado de Alfonso XII. Las posibles homonimias de este concepto pueden solucionarse apellidando el
homónimo (Restauración artística) Además al apellidar un unitérmino,
convirtiéndolo en palabra clave evitamos la ambigüedad y le damos mayor
especificidad (Restauración de la comunidad conyugal)
Sinonimias. La utilización de sinónimos, que aporta valor y riqueza desde el punto
de vista literario es el mayor problema en la recuperación en texto libre en las bases
de datos. No olvidemos que el principio “ideal” de la indización está en el uso del
concepto frente a la palabra. Así cada forma debe tener un único significado y cada
significado debe ir asociado a una única forma. El tesauro controla las sinonimias
mediante los reenvíos.Ejemplo:Enfermedad laboral Enfermedad profesionalUsado por Enfermedad profesional Use Enfermedad laboral
Homonimias o polisemias. El distinto significado de una misma palabra es una
característica de la terminología científica e incluso en las Ciencias Sociales es
indicio de escuelas historiográficas o geográficas. En muchos casos la
precoordinación de términos soluciona las homonimias, en
otros es necesaria una nota de alcance e incluso la adscripción de un término a una
familia o grupo semántico en el tesauro, le confiere una clara conceptualización.
Lenguaje controlado:
Es utilizado en los tesauros cumple con el objetivo de que cada concepto esté identificado por una única palabra para que podamos entenderla de manera homogénea, esto hace que un tesauro sea un vocabulario controlado, conformado por términos normalizados conocidos como descriptores, estos como bien dice su nombre están controlados y al estarlo son términos aceptados o no, esto es, dentro de un término puede haber otros más específicos.
Un eficaz análisis implica la utilización de vocabularios controlados y
procedimientos sintácticos convencionales que permitan crear un vínculo entre el
que emite el mensaje y el que lo recibe. Un metalenguaje que armonice pregunta y
respuesta. Ejemplo:
Transporte terrestre-----Término genérico
Automóvil ---- Término controlado
Auto- coche- nave- carcacha-trasto------ Términos no aceptados
La experiencia demuestra que un elemento fundamental para alcanzar una indización consistente es el uso de lenguajes de indización controlados (lista de descriptores, lista de encabezamientos de materia o tesauros), puesto que cada concepto tiene una única representación terminológica que el indizador empleará tanto en la indización de la información como en su posterior recuperación.Según Lancaster, el control del vocabulario afecta positivamente en un sistema de recuperación de información porque, de un lado, posibilita la representación consistente de las materias por parte de indizadores y usuarios mediante el control de la sinonimia y la homonimia y, de otro, permite ampliar las búsquedas de una determinada materia.1.3.2 Tesauros1.3.2.1 Definición y uso
Palabra latina etimológicamente thesaurus palabra griega thesaurós, significado tesoro o repositorio de palabras.
Vocabulario de un lenguaje de indización controlado, organizado formalmente con objeto de hacer explícitas las relaciones, a priori, entre conceptos (por ejemplo, "más genérico que" o más específico que". (3.3 Norma 50-106-90).
Los tesauros se conciben como un conjunto de terminología normalizada en un ámbito determinado y utilizado para convertir el lenguaje natural empleado en los documentos y en las preguntas a dicha terminología. Los términos incluidos en el tesauro se vinculan entre sí para establecer relaciones sem´´anticas de equivalencia, jerarquía y asosiación (proximidad) a través de unos símbolos.
El uso que se ha hecho de los tesauros ha ido variando con el tiempo y de manera paralela al desarrollo e implantación de las tacnologías de información, por lo que desde su aparición hasta la actualidad se le han dado diferentes funciones:
a) Para la indización y búsqueda. Se maneja el mismo tesauro tanto para la indización de los documentos como para las búsquedas posteriores. b) Para la indización, pero no para la búsqueda. Una unidad de información comercializa una base de datos en un tema de su importancia con un tesauro propio, pero no ofrece a los usuarios finales de la misma la posibilidad de manejar el tesauro con el que se han indizado los documentos. c) Para la búsqueda, pero no para la indización. Un usuario efectúa sus búsquedas con el mismo tesauro que determinados indizadores utilizaron para indizar los documentos.
En la norma norteamericana Z39.19 - 1993 se lee que los tesauros cumplen cuatro propósitos principales:
a) Conversión. Trasladar el lenguaje natural de los autores, indizadores y usuarios a un lenguaje controlado utilizado en la indización y recuperación. b) Consistencia. Proporcionar consitencia en la asignación de los términos de indización. c) Indicación de relaciones. Indicar la relación semánticas entre los términos d) Recuperación. Servir de ayuda en las búsquedas durante la recuperación de información.
Definiciones normalizadas sobre tesauros
Organización Internacional para la Normalización (ISO) "Un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento. (Norma ISO 2788-1986)
La Asociación Española de Normalización y Certificación (AENOR):
Vocabulario de un lenguaje de indización controlado organizado formalmente con objeto de hacer explícitas las relaciones, a priori, entre conceptos (control de vocabulario, estructuración conceptual).
Estructura organizada a partir de relaciones conceptuales explícitas, que incluye control de vocabulario, y cuya función es la indización.
-Organización Nacional de Normas de Información (NISO):
"un vocabulario controlado de términos en lenguaje natural que son diseñados para su uso poscoordinado de los tesauros, interrelacionados en el momento de la búsqueda de información. "
“ un grupo de frases con términos equivalentes explícitamente identificados y con palabras o frases ambiguas”
Si partimos de estas definiciones normalizadas el tesauro para la Documentación y bibliotecología, es una herramienta de control terminológico (sinonimia: semejanza de significados entre determinadas palabras, y polisemia una misma palabra o signo lingüístico tiene varias acepciones) con una estructura conceptual, de uso posterior, vinculado par uso de profesionales de la información como de los beneficiarios de su uso.
Definiciones de diversos autores:
Anguiano Peña:La indización es una técnica o forma de efectuar el análisis documental en cuanto a su nivel interno y específicamente en cuanto al análisis documental de contenido del mensaje; se realiza con la intención de identificar los contenidos documentales y asi hacer posible la recuperación.
[1]
López Yepes: Para lograr lo anterior, se efectúa la descripción de la información y su caracterización utilizando: palabras significativas, palabras claves, materias, temas, unitéminos, o descriptores representativos del contenido del documento que los contiene
.[2]
Villen Rueda: El objetivo de la indización es constituir un conjunto lo más completo y diversificado posible de puntos de acceso a la información
[3]
Aitchinson y Gilchrist: Definen al tesauro como un vocabulario de un lenguaje controlado de indización, organizado formalmente de manera que las relaciones conceptuales son establecidas a priori, y que puede ser utilizado para la recuperación de información. (recuperación de información).
Georges Van Slype: Lo define como una lista estructurada de conceptos, destinados a representar de manera unívoca el contenido de los documentos y de las consultas dentro de un sistema documental determinado y ayudar al usuario en la indización de los documentos y de las consultas ( usuario como beneficiario).
En la práctica de la lexicografía (quienes escriben diccionarios) sus profesionales fueron los primeros en este campo de conocimiento que aplicaron el término tesauro y en el que se dieron ala tarea de elaborar las primeras definiciones.
1852: Surge lo que actualmente conocemos como el Tesauro Rogert¨s a partir de la publicación del libro Tesauro ROGET's, del autor Peter Mark Roget donde se presenta ideas como en que después de una organización conceptual explicita, se pueden agrupar y relacionar palabras que son asignadas o nombradas en diversos contextos y partir de ello surgen palabras unificadas de entradas que sirven de ayuda y asistencia a la expresión de ideas en la composición literaria en cuestión.
1957: En el campo de Bibliotecología y Documentación se usó por primera vez el término tesauro en un trabajo presentado por Helen Brownson, miembro de la American National Science Foundation, la contribución especial del trabajo Dorking Conference on Classification, fue que el término tesauro es utilizado al analizar la problemática de traducir los conceptos y sus relaciones, tal como se expresan en los documentos, a un lenguaje con mayor precisión y sin percepciones propias
“Directrices para el establecimiento y desarrollo de tesauros monolingües”
1.3.2.4 Ventaja de la utilización de los tesauros
Las ventajas principales de los tesauros frente a los lenguajes documentales (clasificación, encabezamientos)son principalmente las siguientes:
a) Mayor especificidad de los términos relativos a campos disciplinares concretos, lo cual permite un análisis más preciso de los documentos b) Incorporación de relaciones asociativas, que favorecen la versatilidad,evitando los compartimentos de una clasificación y ayudando a crear un universo real e interdisciplinar como es el lenguaje científico.
1.4 Indización automatica Indización que realiza la computadora a travpes de un programa informático que reconoce y pondera las palabras que figuran en el título, el resumen y/o el texto completo del documento, y luego selecciona algunos de esos términos para representar el contenido de un documento, y brindar puntos de acceso para su recuperación
La definición de la automatización de la indización se debe acometer desde una triple perspectiva:
a) Programas informáticos que asisten en el proceso de almacenamiento de los términos de indización, una vez obtenidos de modo intelectual. Indización asistida por ordenador durante el almacenamiento) b) Sistemas que analizan los documentos de modo automático, pero los términos de indización propuestos los valida y edita – si es necesario- un profesional (indización semiautomática) c) Programas sin ningún tipo de validación, es decir, los términos propuestos se almacenan directamente como descriptores de dicho documento.
La interdisciplinariedad es una caracteristica presente en la automatización de la indización. Los aportes más importantes que recibe la documentación, y en particular la automatización, son de la lingüistica y la informática.Está última persigue la selección de una serie de conceptos de los textos escritos en lenguaje natural. Por tanto conlleva que el ordenador detecte signos que representan conceptos y analice los diferentes niveles y componentes del lenguaje.
Las reflexiones sobre la relación entre la lingüística y la documentación y de los aportes de la primera comenzaron a principios de los setenta. La automatización se ha asentado en el cálculo de la frecuencia de las palabras, en el análisis automático del lenguaje de los textos o en ambos a la vez. Los niveles y los componentes de la lingüística que intervienen en la automatización de la indización con la morfología, la sintaxis, y en menor medida, la semantica.
La informática se ocupa del tratamiento automático de la información y ha permitido desde los años cincuenta su representación y procesamiento, así como su almacenamiento y su recuperación de forma automatizada. La informática no solamente se utiliza en la automatización de la indización para lo que podriamos denominar análisis de la información, sino también para el almacenamiento de los términos de indización seleccionados de modo manual.
Aunque la indización se realice de modo intelectual, los ordenadores constituyen herramientas importantes para facilitar las labores de los indizadores y agilizar los procesos de control de calidad en la indización.
Conclusiones
La indización es la agrupación de puntos de acceso para guiar con rapidez y presición hacia la información que puede necesitar un usuario. Su objetivo general es el almacenamiento de las representaciones conceptuales de los documentos para atender necesidades de información.
Los tesauros son una herramienta de terminos controlados que facilita el acceso a la información de manera eficiente, es utilizada por los profesionistas encargados del análisis documental (decidir cual término o términos pueden describir adecuadamente un documento), por los profesionales que clasifican la indización, así como por el usuario que busca información ( quien mediante el tesauro tiene al alcance los términos que facilitan una respuesta eficiente a su búsqueda, por lo regular las bases de datos le ponen a su alcance el término aceptado) .
Por último, la forma en que se expresan y presentan los términos y sus relaciones convierte al tesauro en un lenguaje combinatorio, que permite utilizar cualquier descriptor como término de indización__ de forma autónoma y combinarlos a placer entre sí mediante los operadores booleanos y sintácticos, a la hora de efectuar una búsqueda de información en un sistema informatizado o base de datos.
[1] LÓPEZ YEPES, José Diccionario Enciclopédico de ciencias de la documentación. Madrid: Síntesis. 2v
[2] ANGUIANO PEÑA. Gilberto Indización semiautomática para almacenar y recuperar la información del léxico del español usado en México Tesis de Maestría bibliotecología y estudios de información UNAM – Facultad de Filosofía y Letras
[3] VILLÉN RUEDA, Luis La indización y el acceso por materias en los catálogos de bibliotecas: el desafío de la recuperación de la información. Guadalajara: Univesidad de Guadalajara 223 p. 2006
Indización y Tesauros
_
Seminario de Análisis Documental impartido por la Dra. Georgina Torres.
Trabajo de investigación, colaborativo y de práctica
Después de una búsqueda sobre la información que contiene el tema que nos ocupa, podemos ver que los autores confunden ambos términos, a veces los enfrentan y en otros casos lo complementan.
Mediante este trabajo en grupo, tendremos la oportunidad de ir aclarando, al respecto, te invitamos a leer este espacio y los recursos que pusimos a tu alcance, para que en la exposición presencial, lo podamos discutir y lleguemos a una consenso.
Ayudanos con tu participación dando forma y contenido a este wiki "Recordemos que es un trabajo colaborativo, se trata de analizar el contenido y los recursos que ponemos a tu alcance como son los archivos y ligas, te solicitamos leer lo que creas conveniente, de acuerdo a tu propio interés y tiempo para la lectura, cualquier aportación tuya reforzará el contenido de este espacio"
Gracias por participar!!_
Indización y Tesauros
- 1 Introducción
El proceso técnico documental es el conjunto de operaciones dirigidas a la selección, la adquisición, el registro y el tratamiento de los documentos con el fin de posibilitar su almacenamiento y recuperación, y su posterior difusión. En general la entrada de los documentos en un centro se efectúa por medio de dos etapas sucesivas: la selección y adquisición. La selección, como su nombre lo indica, es elegir la documentación que debe incorporarse y la adquisición va a depender de las políticas de la institución en relación al presupesto, los recursos y los servicios prestados. Por tanto, la selección y adquisición es la primera etapa que encamina la constitución de los fondos documentales.
Otra fase en el proceso técnico documental es el tratamiento técnico que reciben los documentos para que puedan ser utilizados. Este tratamiento se divide en análisis de forma y análisis de contenido. El análisis de forma de un documento también se conoce como descripción bibliográfica o catalogación, mientras que el análisis de contenido abarca la clasificación, el resumen y la indización.Esté último proceso es el que desarrollaremos a continuación especialmente la etapa de indización y sus diferentes características, tal como se muestra en el índice, posteriormente, profundizamos en el tema de Tesauros, con la finalidad de explicar su relación con la indización y así abarcar los temas del trabajo que corresponde: "INDIZACIÓN Y TESAUROS".
1.1 Definición de indización
En la literatura sobre indización es habitual encontrar diferentes definiciones, por lo cual, tomamos las definiciones más adop que en un momento podría adaptarse a un contexto práctico - experimental, y no solo teórico:
Indización. Técnica del Análisis documental que describe y representa el contenido de las fuentes de información documentales mediante un número limitado de conceptos extraídos del texto de los documentos (palabras clave) o de vocabularios controlados (clasificaciones, listas de materia,
tesauros) que van a permitir el control y la recuperación de la información de un conjunto documental dado.[1]
La indización es una técnica o forma de efectuar el análisis documental en cuanto a su nivel interno y específicamente en cuanto al análisis documental de contenido del mensaje; se realiza con la intención de identificar los contenidos documentales y así hacer posible la recuperación. Para lograr lo anterior, se efectúa la descripción de la información y su caracterización utilizando: palabras significativas, palabras claves, materias, temas, unitérminos, o descriptores representativos del contenido del documento que los contiene.[2]
. La operación más significativa del análisis documental que refiere al proceso de descripción y representación del contenido de un documento, mediante un número limitado de conceptos extraídos del texto de los documentos (palabras clave) o de vocabularios controlados (descriptores, términos o encabezamientos de materia, tesauros). Esos conceptos deben ser los que más apropiadamente caractericen al documento, a modo de facilitar su futura recuperación temática.Así pues, tomando como base las definiciones, y analisando cada una de ellas, podemos observar que tienen en común conceptos, tales como: descripción, recuperación, representación, etc, cuya característica conlleva a un objetivo, por lo cual, el objetivo de la indización es constituir un conjunto lo más completo y diversificado posible de puntos de acceso a la información[3], así como el almacenamiento de la información para atender necesidades de información. Las diferentes maneras de enfretarse a la indización de documentos por parte de los indizadores se pueden agrupar en tres corrientes presentes en la literatura: Una indización centrada en el documento, el usuario y en el dominio.
1.1.1 Indización centrada en el documento
Consiste en una indización que trata sobre la descripción exacta y fiel del documento sin considerar el contexto o las necesidades de información de los usuarios a los que sirve.
1.1.2 Indización centrada en el usuario
Se basa en la selección de los conceptos convirtiendolos en términos controlados por medio de un lenguaje de indización, teniendo siempre en mente el conocimiento que tienen de los usuarios y sus posibles necesidades de información.
1.1.3 Indización centrada en el dominio
Jeans- Erik Mai. Ha propuesto esta modalidad cuyo fundamento está en el conocimiento profundo de la organización. El autor subdivide este tipo de indización en cuatro procesos: análisis del dominio, de las necesidades de los usuarios, de los roles jugados u adoptados por los indizadores, por último el análisis del documento teniendo siempre en cuenta los elementos anteriores.
Por tanto, las diferencias de enfoque entre la indización centrada en el documento y la centrada en el dominio consisten en que mientras la primera toma como única referencia la información contenida en el documento, la indización centrada en el dominio maneja otros elementos además del documento.
1.2 Proceso de la indización
· Consiste en extraer los conceptos representativos del contenido de un documento con la ayuda de un lenguaje documental o lenguaje controlado. · Se pueden emplear materias, palabras claves o descriptores (término normalizado o controlado que expresa el contenido significativo del documento). · No se limita sólo a detectar los vocablos presentes en el documento, sino también su traducción para pasar del lenguaje natural al lenguaje documental.· El indizador, cuando ya tiene el documento original o su expresión condensada, retiene unas cuantas nociones que representan su contenido con la máxima fidelidad.
1.2.1 Exhaustividad
Todos los conceptos básicos han de estar representados en la indización
1.2.2 Corrección
Evitar palabras demasiado genéricas, expresiones vagas o ambiguas o cualquier tipo de generalización.
1.2.3 Pertinencia
Exigencia y rigor en la selección de los vocablos más expresivos y más significativos
1.2.4 Uniformidad
Es el más difícil y el que exige una actitud más positiva por parte de quien indiza, sobre todo cuando no existen palabras similares a las escogidas. Se irá elaborando un listado de trabajo (de palabras o expresiones clave utilizadas) para mantener la coherencia en todo momento.
1.2.5 Interés del usuario
Ésta será siempre la principal misión de la indización si se quiere ofrecer un servicio útil
1.2.6 Estadístico
Frecuencia del uso de un término en el título o texto
1.2.7 Especificidad y presición
En todo momento se buscará utilizar de forma precisa el lenguaje especializado de los ámbitos temáticos y disciplinares abordados.
1.3 Herramientas para la indización
1.3.1 Lenguaje natural versus lenguaje controlado
Hablar de lenguajes de indización es hacer referencia a conceptos como lenguaje documental, lenguaje especializado, lenguaje natural y lenguaje controlado, normalización y control del vocabulario, relaciones semanticas, etc. En este momento, consideramos oportuno revisar la dicotomía entre lenguaje natural y lenguaje controlado, debido a que la elección de uno de ellos vista a la indización conlleva seleccionar alguna de las posibles herramientas disponibles.
Lenguaje natural:
Emitido por el ser humano de forma natural, común, a diario, variado, alto en sinónimos y delineado por las distintas regiones donde habita el hombre. Nos facilita al hablar y definir el mismo concepto con distintos términos (ejem: carro, coche, auto, entre otros) lo cual por ende dificulta la indización de documentos, así como la búsqueda y recuperación de la misma. Los principales problemas del lenguaje natural son:
- Normalización de singulares y plurales. Para dicho tema la indización debe
ajustarse en lo posible a la Norma UNE 50-106-90. Normas para el desarrollo detesauros monolingües.
Además el significado de muchos términos varía según su número EjemploDerecho;derechos/Obligación ;Obligaciones).
- Ambigüedad y falta de especificidad. La utilización de unitérminos, propio del
lenguaje natural crea además ambigüedad y falsas combinaciones en larecuperación. Según el ejemplo anterior un buen sistema controlado debería
recoge formas como : Obligación de declarar;Obligaciones del Estado.
Muchos términos están perfectamente claros y definidos en su utilización. Así, las
notas de alcance de un tesauro nos permiten aclarar aquellos conceptos que ayuden
a su uso en el contexto exacto.Ejemplo:Restauración N.A. Reinado de Alfonso XII. Las posibles homonimias de este concepto pueden solucionarse apellidando el
homónimo (Restauración artística) Además al apellidar un unitérmino,
convirtiéndolo en palabra clave evitamos la ambigüedad y le damos mayor
especificidad (Restauración de la comunidad conyugal)
- Sinonimias. La utilización de sinónimos, que aporta valor y riqueza desde el punto
de vista literario es el mayor problema en la recuperación en texto libre en las basesde datos. No olvidemos que el principio “ideal” de la indización está en el uso del
concepto frente a la palabra. Así cada forma debe tener un único significado y cada
significado debe ir asociado a una única forma. El tesauro controla las sinonimias
mediante los reenvíos.Ejemplo:Enfermedad laboral Enfermedad profesionalUsado por Enfermedad profesional Use Enfermedad laboral
- Homonimias o polisemias. El distinto significado de una misma palabra es una
característica de la terminología científica e incluso en las Ciencias Sociales esindicio de escuelas historiográficas o geográficas. En muchos casos la
precoordinación de términos soluciona las homonimias, en
otros es necesaria una nota de alcance e incluso la adscripción de un término a una
familia o grupo semántico en el tesauro, le confiere una clara conceptualización.
Lenguaje controlado:
Es utilizado en los tesauros cumple con el objetivo de que cada concepto esté identificado por una única palabra para que podamos entenderla de manera homogénea, esto hace que un tesauro sea un vocabulario controlado, conformado por términos normalizados conocidos como descriptores, estos como bien dice su nombre están controlados y al estarlo son términos aceptados o no, esto es, dentro de un término puede haber otros más específicos.
Un eficaz análisis implica la utilización de vocabularios controlados y
procedimientos sintácticos convencionales que permitan crear un vínculo entre el
que emite el mensaje y el que lo recibe. Un metalenguaje que armonice pregunta y
respuesta.
Ejemplo:
Transporte terrestre-----Término genérico
Automóvil ---- Término controlado
Auto- coche- nave- carcacha-trasto------ Términos no aceptados
La experiencia demuestra que un elemento fundamental para alcanzar una indización consistente es el uso de lenguajes de indización controlados (lista de descriptores, lista de encabezamientos de materia o tesauros), puesto que cada concepto tiene una única representación terminológica que el indizador empleará tanto en la indización de la información como en su posterior recuperación.Según Lancaster, el control del vocabulario afecta positivamente en un sistema de recuperación de información porque, de un lado, posibilita la representación consistente de las materias por parte de indizadores y usuarios mediante el control de la sinonimia y la homonimia y, de otro, permite ampliar las búsquedas de una determinada materia.1.3.2 Tesauros1.3.2.1 Definición y uso
Los tesauros se conciben como un conjunto de terminología normalizada en un ámbito determinado y utilizado para convertir el lenguaje natural empleado en los documentos y en las preguntas a dicha terminología. Los términos incluidos en el tesauro se vinculan entre sí para establecer relaciones sem´´anticas de equivalencia, jerarquía y asosiación (proximidad) a través de unos símbolos.
El uso que se ha hecho de los tesauros ha ido variando con el tiempo y de manera paralela al desarrollo e implantación de las tacnologías de información, por lo que desde su aparición hasta la actualidad se le han dado diferentes funciones:
a) Para la indización y búsqueda. Se maneja el mismo tesauro tanto para la indización de los documentos como para las búsquedas posteriores.
b) Para la indización, pero no para la búsqueda. Una unidad de información comercializa una base de datos en un tema de su importancia con un tesauro propio, pero no ofrece a los usuarios finales de la misma la posibilidad de manejar el tesauro con el que se han indizado los documentos.
c) Para la búsqueda, pero no para la indización. Un usuario efectúa sus búsquedas con el mismo tesauro que determinados indizadores utilizaron para indizar los documentos.
En la norma norteamericana Z39.19 - 1993 se lee que los tesauros cumplen cuatro propósitos principales:
a) Conversión. Trasladar el lenguaje natural de los autores, indizadores y usuarios a un lenguaje controlado utilizado en la indización y recuperación.
b) Consistencia. Proporcionar consitencia en la asignación de los términos de indización.
c) Indicación de relaciones. Indicar la relación semánticas entre los términos
d) Recuperación. Servir de ayuda en las búsquedas durante la recuperación de información.
Definiciones normalizadas sobre tesauros
Organización Internacional para la Normalización (ISO)
"Un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento. (Norma ISO 2788-1986)
La Asociación Española de Normalización y Certificación (AENOR):
Vocabulario de un lenguaje de indización controlado organizado formalmente con objeto de hacer explícitas las relaciones, a priori, entre conceptos (control de vocabulario, estructuración conceptual).
Estructura organizada a partir de relaciones conceptuales explícitas, que incluye control de vocabulario, y cuya función es la indización.
-Organización Nacional de Normas de Información (NISO):
"un vocabulario controlado de términos en lenguaje natural que son diseñados para su uso poscoordinado de los tesauros, interrelacionados en el momento de la búsqueda de información. "
“ un grupo de frases con términos equivalentes explícitamente identificados y con palabras o frases ambiguas”
Si partimos de estas definiciones normalizadas el tesauro para la Documentación y bibliotecología, es una herramienta de control terminológico (sinonimia: semejanza de significados entre determinadas palabras, y polisemia una misma palabra o signo lingüístico tiene varias acepciones) con una estructura conceptual, de uso posterior, vinculado par uso de profesionales de la información como de los beneficiarios de su uso.
Definiciones de diversos autores:
Anguiano Peña:La indización es una técnica o forma de efectuar el análisis documental en cuanto a su nivel interno y específicamente en cuanto al análisis documental de contenido del mensaje; se realiza con la intención de identificar los contenidos documentales y asi hacer posible la recuperación.
[1]
López Yepes: Para lograr lo anterior, se efectúa la descripción de la información y su caracterización utilizando: palabras significativas, palabras claves, materias, temas, unitéminos, o descriptores representativos del contenido del documento que los contiene
.[2]
Villen Rueda: El objetivo de la indización es constituir un conjunto lo más completo y diversificado posible de puntos de acceso a la información
[3]
Aitchinson y Gilchrist: Definen al tesauro como un vocabulario de un lenguaje controlado de indización, organizado formalmente de manera que las relaciones conceptuales son establecidas a priori, y que puede ser utilizado para la recuperación de información. (recuperación de información).
Georges Van Slype: Lo define como una lista estructurada de conceptos, destinados a representar de manera unívoca el contenido de los documentos y de las consultas dentro de un sistema documental determinado y ayudar al usuario en la indización de los documentos y de las consultas ( usuario como beneficiario).
1.3.2.2 Estructura de Tesauros
1.3.2.3 Los tesauros por el paso del tiempo
En la práctica de la lexicografía (quienes escriben diccionarios) sus profesionales fueron los primeros en este campo de conocimiento que aplicaron el término tesauro y en el que se dieron ala tarea de elaborar las primeras definiciones.
1852: Surge lo que actualmente conocemos como el Tesauro Rogert¨s a partir de la publicación del libro Tesauro ROGET's, del autor Peter Mark Roget donde se presenta ideas como en que después de una organización conceptual explicita, se pueden agrupar y relacionar palabras que son asignadas o nombradas en diversos contextos y partir de ello surgen palabras unificadas de entradas que sirven de ayuda y asistencia a la expresión de ideas en la composición literaria en cuestión.
1957: En el campo de Bibliotecología y Documentación se usó por primera vez el término tesauro en un trabajo presentado por Helen Brownson, miembro de la American National Science Foundation, la contribución especial del trabajo Dorking Conference on Classification, fue que el término tesauro es utilizado al analizar la problemática de traducir los conceptos y sus relaciones, tal como se expresan en los documentos, a un lenguaje con mayor precisión y sin percepciones propias
Norma UNE
“Directrices para el establecimiento y desarrollo de tesauros monolingües”
1.3.2.4 Ventaja de la utilización de los tesauros
Las ventajas principales de los tesauros frente a los lenguajes documentales (clasificación, encabezamientos)son principalmente las siguientes:
a) Mayor especificidad de los términos relativos a campos disciplinares concretos, lo cual permite un análisis más preciso de los documentos
b) Incorporación de relaciones asociativas, que favorecen la versatilidad,evitando los compartimentos de una clasificación y ayudando a crear un universo real e interdisciplinar como es el lenguaje científico.
1.4 Indización automatica
Indización que realiza la computadora a travpes de un programa informático que reconoce y pondera las palabras que figuran en el título, el resumen y/o el texto completo del documento, y luego selecciona algunos de esos términos para representar el contenido de un documento, y brindar puntos de acceso para su recuperación
La definición de la automatización de la indización se debe acometer desde una triple perspectiva:
a) Programas informáticos que asisten en el proceso de almacenamiento de los términos de indización, una vez obtenidos de modo intelectual. Indización asistida por ordenador durante el almacenamiento)
b) Sistemas que analizan los documentos de modo automático, pero los términos de indización propuestos los valida y edita – si es necesario- un profesional (indización semiautomática)
c) Programas sin ningún tipo de validación, es decir, los términos propuestos se almacenan directamente como descriptores de dicho documento.
La interdisciplinariedad es una caracteristica presente en la automatización de la indización. Los aportes más importantes que recibe la documentación, y en particular la automatización, son de la lingüistica y la informática.Está última persigue la selección de una serie de conceptos de los textos escritos en lenguaje natural. Por tanto conlleva que el ordenador detecte signos que representan conceptos y analice los diferentes niveles y componentes del lenguaje.
Las reflexiones sobre la relación entre la lingüística y la documentación y de los aportes de la primera comenzaron a principios de los setenta. La automatización se ha asentado en el cálculo de la frecuencia de las palabras, en el análisis automático del lenguaje de los textos o en ambos a la vez. Los niveles y los componentes de la lingüística que intervienen en la automatización de la indización con la morfología, la sintaxis, y en menor medida, la semantica.
La informática se ocupa del tratamiento automático de la información y ha permitido desde los años cincuenta su representación y procesamiento, así como su almacenamiento y su recuperación de forma automatizada. La informática no solamente se utiliza en la automatización de la indización para lo que podriamos denominar análisis de la información, sino también para el almacenamiento de los términos de indización seleccionados de modo manual.
Aunque la indización se realice de modo intelectual, los ordenadores constituyen herramientas importantes para facilitar las labores de los indizadores y agilizar los procesos de control de calidad en la indización.
Conclusiones
La indización es la agrupación de puntos de acceso para guiar con rapidez y presición hacia la información que puede necesitar un usuario. Su objetivo general es el almacenamiento de las representaciones conceptuales de los documentos para atender necesidades de información.
Los tesauros son una herramienta de terminos controlados que facilita el acceso a la información de manera eficiente, es utilizada por los profesionistas encargados del análisis documental (decidir cual término o términos pueden describir adecuadamente un documento), por los profesionales que clasifican la indización, así como por el usuario que busca información ( quien mediante el tesauro tiene al alcance los términos que facilitan una respuesta eficiente a su búsqueda, por lo regular las bases de datos le ponen a su alcance el término aceptado) .
Por último, la forma en que se expresan y presentan los términos y sus relaciones convierte al tesauro en un lenguaje combinatorio, que permite utilizar cualquier descriptor como término de indización__ de forma autónoma y combinarlos a placer entre sí mediante los operadores booleanos y sintácticos, a la hora de efectuar una búsqueda de información en un sistema informatizado o base de datos.
[1] LÓPEZ YEPES, José Diccionario Enciclopédico de ciencias de la documentación. Madrid: Síntesis. 2v
[2] ANGUIANO PEÑA. Gilberto Indización semiautomática para almacenar y recuperar la información del léxico del español usado en México Tesis de Maestría bibliotecología y estudios de información UNAM – Facultad de Filosofía y Letras
[3] VILLÉN RUEDA, Luis La indización y el acceso por materias en los catálogos de bibliotecas: el desafío de la recuperación de la información. Guadalajara: Univesidad de Guadalajara 223 p. 2006